@处理形态复杂词的 (分布式) 语义视角A distributional semantic perspective on the processing of morphologically complex words
论文笔记:处理形态复杂词的(分布式)语义视角
- 标题: A (distributional) semantic perspective on the processing of morphologically complex words
- 作者: Simona Amenta, Fritz Günther, Marco Marelli
- 期刊: The Mental Lexicon
- 年份: 2020
摘要 (Abstract)
- 核心问题: 尽管词素 (morphemes) 理论上是连接形式与意义的单位,但在关于派生词和复合词的实证研究中,语义效应 (semantic effects) 的报告并不一致。
- 传统解释: 这种不一致性通常被归因于研究间的方法学差异或语境效应。
- 本文新视角: 如果我们采用一种动态且灵活的语义定义——即依赖于分布式语义 (distributional semantics) 的方法——那么语义效应会相当稳定地显现出来。
- 研究路径: 本文从一个认知视角出发,重新审视了形态加工过程,重点关注两种模型:
- 将形态学视为一种系统性的意义转换。
- 将形态学视为正字法形式 (orthographic form) 与其意义之间的映射。
1. 派生词与复合词加工中的语义透明度
-
引言: 过去50年,对形态复杂词的视觉识别与加工研究兴趣浓厚。本文聚焦于派生词 (derivation) 和复合词 (compounding),旨在从以意义为中心 (meaning-centered) 的角度重新审视相关议题。
-
关于早期加工的辩论
- 核心争议: 语义在复杂词识别的早期阶段扮演何种角色。
- 支持“语义盲”的证据:
- 研究范式: 遮蔽启动 (masked priming) + 词汇判断任务 (lexical decision task)。
- 关键发现: 一些研究发现,真正存在形态关系的词对 (如 dealer-deal) 和仅有形式相似的伪形态词对 (如 corner-corn) 产生了大小相等的启动效应。【corner 能让你更快地认出 corn,而且这种加速效果和 dealer 加速你认出 deal 的效果一样强。】
- 结论: 这表明早期形态加工是一个“语义盲”的、纯粹的形态-正字法 (morpho-orthographic) 分解过程。【大脑在最开始的阶段是“语义盲”的。它只是做了一个简单的“模式匹配”,看到 corner 的拼写很像 corn + er,就机械地把它切开了,根本没去想它们的意义通不通顺。这就是所谓的形态-正字法加工——只管拼写形式,不管内在含义。】
- 支持“语义参与”的证据:
- 相反的发现: 另一些研究则发现,真正形态相关的词对产生了更大的启动效应。
- 任务依赖性: 当实验任务本身是语义任务时 (如语义分类),即使在短启动时间下,语义效应也会强烈显现。而在纯粹关注形式的任务中,形态启动效应会消失。
- 启动时程: 在长时程启动 (long-term priming) 实验中,语义效应是一致的。只有真正形态相关且语义相关的词对 (dealer-deal) 才能产生显著的启动,且优于纯语义相关 (trade-deal) 或纯正字法相关 (scandal-scan) 的词对。
- 语境效应: 在句子语境中,语义效应也存在。一项眼动研究发现,对于伪派生词 summer,在透明语境 ("a good summer" -> a person who sums) 和不透明语境 ("in summer") 中,词干 sum 的频率效应方向相反 (促进 vs. 阻碍),表明词干语义被激活并与上下文互动。
-
复合词加工中的不一致性
- 语义透明度: 定义了单个成分的意义在构建整个复合词意义中的作用。
- 不稳定的效应:
- 成分启动研究中,透明复合词 (tea-teacup) 相较于不透明复合词 (butter-buttercup) 并未表现出更强的启动效应。
- 眼动研究中的语义透明度效应也不稳健 (not robust)。
- 只有在特定的实验操控下 (如分开呈现成分词 tea cup),透明性优势才会显现。
-
本节小结
- 语义效应的不一致性可能导致了研究者在形态加工领域中或多或少地更关注形式而非意义。
- 本文提出的核心问题: 这种不一致性,究竟是因为实验设置的限制,还是因为我们对“语义”的定义本身过于静态和不充分?
2. 分布式语义 (Distributional Semantics)
- 核心思想: 分布式假说 (Distributional Hypothesis) —— 词义可以通过其在大量文本中的上下文分布来习得。例如,boat 和 ship 经常出现在相似的语境中 (如 water, passenger, sea),因此它们的意义是相似的。
- 计算实现:
- 分布式语义模型 (Distributional Semantic Models, DSMs) 从大规模语料中提取词语的分布模式。
- 将每个词表示为一个数值向量 (numerical vector)。例如,
boat = [20, 7, 14]
代表其在water
,passenger
,sea
三个上下文中的出现次数。 - 使用余弦相似度 (cosine similarity) 等度量来计算任意两个词向量之间的意义相似性。
- 心理学相关性: DSMs 已被广泛验证为能够模拟人类语义记忆和概念系统的有效模型。
- DSMs 在形态学研究中的传统应用:
- 通过计算复杂词与其词根的向量余弦相似度,来量化语义透明度。
- 传统 DSMs 的局限:
- 它们只能捕捉整词 (whole-word) 之间静态的 (static) 语义关系。(它知道 happy 在哪,也知道 unhappiness 在哪,但它不知道如何从 happy 这个点,通过加上 un- 和 -ness,走到 unhappiness 那个点。它无法处理单词的内部构造。)
- 本文提出的新发展:
- 利用 DSMs 建立一个动态的、意义派生的 (meaning-deriving) 形态加工视角。
- 两条主要路径:
- 形态学作为意义转换: 研究复杂词意义如何从其成分词的意义 (即向量) 中派生出来。
- 形态学作为形义映射: 研究复杂词意义如何从其成分词的形式 (即字母串) 中派生出来。
3. 形态学:作为系统性的意义转换
-
核心理念: 复杂词的意义可以通过明确定义的数学程序,从其构成词素的意义中派生出来。
-
复合词 (Compounding)
- 早期模型: 使用简单的向量代数,如向量加法或元素乘法。
- CAOSS 模型 (Compounding as Abstract Operation in Semantic Space):
- 公式: $$ c = M \cdot u + H \cdot v $$
- 模型解读:
u
和v
分别是两个成分词的分布式向量。M
和H
是角色依赖的权重矩阵 (role-dependent weight matrices)。它们不是固定的,而是通过在整个语料库上进行训练学习得到的,作用是在组合前对成分词的意义进行调整和加权。` 是模型预测出的、由成分组合而成的复合词意义向量。
- 对语义透明度的新定义:
- 传统定义: 比较实际观察到的整词意义和成分词意义。
- 新定义: 比较由模型组合派生出的意义和成分词意义。这个新定义更好地反映了成分意义整合进组合概念的难易程度 (ease of integrating)。
-
派生词 (Affixation)
- 面临的挑战: 词缀 (affix) 不是自由词,无法直接从语料库中学习其分布式向量。
- FRACSS 模型 (Functional Representations of Affixes in Compositional Semantic Space):
- 核心概念: 将词缀概念化为一种线性函数 (linear function),在向量代数中等同于一个矩阵 (matrix)。
- 公式: $$ c = A \cdot s $$
- 模型解读:
s
是词根 (stem) 的向量。A
是一个代表特定词缀的转换矩阵 (例如,un-
有一个专属矩阵)。 - 这个矩阵的作用是将输入的词根向量
s
,通过旋转、拉伸等方式,系统性地映射到输出的派生词向量c
的位置。 - 矩阵
A
是通过学习大量包含该词缀的词对 (如 fair-unfair, do-undo) 训练得到的。
- 模型的成功应用:
- 能够成功预测人类对新造词 (如 sketchable vs. sludgist) 可接受性的直觉判断。
- 能够解释经典的启动实验结果:在短SOA下,模型生成的组合意义差异小 (类似实验结果);在长SOA下,语料库中的整词意义差异大 (也类似实验结果)。
- 能够解释跨语言差异 (如德语 vs. 英语),证明德语形态系统在语义上更具系统性 (more semantically systematic)。
4. 形态学:作为形义映射 (Form-Meaning Mapping)
-
核心理念: 形态效应并非源于一个独立的形态模块,而是更广义的、连接形式和意义的统计学习系统所产生的副产品 (epiphenomenon)。
-
主要模型与概念
- 连接主义模型 (Connectionist Models):
- 如三角模型 (Triangle Model),通过神经网络学习正字法、音系和语义之间的关联权重。
- 朴素判别学习 (Naïve Discriminative Learning, NDL):
- 学习机制: 基于 Rescorla-Wagner 学习方程,一个心理学上合理的学习过程。
- 关联对象: 学习形式单元 (cues, 如字母二元组/三元组) 和意义单元 (outcomes, 如词或词素的符号表示,称为 lexomes) 之间的关联。
- 发展演变:
- 早期 NDL: 语义层是符号化的,节点间的语义关系未被捕捉。
- 近期 NDL: 受到分布式语义的启发,模型不仅学习“形-义”关联,还学习“义-义”关联,从而构建出一个语义空间。
- 最新发展: 实现了从形式单元到语义向量的线性映射系统,可以为任何字母串 (即使是新词) 预测其语义向量。
- 描述性度量: 形义一致性 (Orthography-Semantics Consistency, OSC):
- 定义: 该指标量化了一个正字法字符串 (orthographic string) 在整个词库中,与其相关意义进行关联的可靠性或一致性。
- 高 OSC 示例: 字符串 "widow" 在词库中主要出现在 widower, widowhood 等词中,这些词都与“寡妇”的意义高度相关。因此,"widow" 是一个可靠的意义线索。
- 低 OSC 示例: 字符串 "whisk" 出现在 whiskey, whiskers 等词中,这些词的意义与“搅拌”无关。因此,"whisk" 是一个不可靠的意义线索。
- 解释力: OSC 被证明能有效解释形态遮蔽启动和孤立词加工中的多种现象,高 OSC 的词更容易被加工。
- 未来方向:
- 应用 FastText 等更先进的模型。FastText 不仅学习整词向量,还学习子词单元 (sublexical chunks) 的向量。
- 这使得模型能更好地捕捉由非词素的、亚词法层面信息所承载的语义,为全面理解形义动态关系提供了有前景的路径。
- 连接主义模型 (Connectionist Models):
5. 结论
-
两大路径的心理学现实:
- 意义转换 (Meaning Transformation):
- 理论契合: 该路径与心理学中的概念组合 (conceptual combination) 理论紧密相关。复杂词可以被看作是语言层面上对“用旧概念创造新想法”这一认知过程的实现。
- 功能解释: 它解释了形态分析 (morphological parsing) 为何有用——因为它为意义的组合提供了构建模块 (building blocks)。
- 形义映射 (Form-Meaning Mapping):
- 理论契合: 该路径与将词汇识别视为正字法信息激活一系列相关单元的理论框架相一致。例如,Blevins 的以词为中心的形态学观,或 Libben 提出的词汇表征存在于不稳定的叠加态 (superstates) 的观点。
- 整合能力: 能够将形态加工文献与亚词法层面语义效应 (semantic effects at the sublexical level) 的研究联系起来。
- 意义转换 (Meaning Transformation):
-
核心倡议与展望:
- 将意义置于中心 (bringing meaning at the center of the stage) 是推动形态加工领域发展的关键一步。
- 在真实环境中,我们阅读是为了理解,语言和形态学的核心功能是传递意义。
- 形态过程 (派生和复合) 是语言扩展词汇、创造新意义的最重要方式。
- 新近在分布式模型中以形态学为中心的提案,为以量化、精确的方式解决这些核心问题提供了一个极具前景的途径。